Search CORE

270 research outputs found

High Performance Neural Networks for Online Speech Recognizer

Author: Nguyen Thai-Son
Publication venue: KIT-Bibliothek, Karlsruhe
Publication date: 21/01/2021
Field of study

Automatische Spracherkennung (engl. automatic speech recognition, ASR) beschreibt die Fähigkeit einer Maschine, Wörter und Ausdrücke gesprochener Sprache zu identifizieren und diese in ein für Menschen lesbares Format zu konvertieren. Die Anwendungen sind ein maßgeblicher Teil des digitalen Lebens bspw. wird der Dialog zwischen Mensch und Maschine oder ein Dialog zwischen Menschen, die unterschiedliche Muttersprachen sprechen, ermöglicht. Um diese Fähigkeit in vollem Maße zu gewährleisten, müssen ASR-Anwendungen nicht nur mit hoher Genauigkeit, sondern, für eine Interaktion mit einem Benutzer, auch schnell genug, antworten. Dieses Wechselspiel beider Bedingungen eröffnet das Forschungsgebiet der Online Speech Recognition, welche sich von der konventionellen Spracherkennung, die sich ausschließlich mit dem Problem der Genauigkeit befasst, unterscheidet. Schon über ein halbes Jahrhundert wird aktiv in der automatischen Spracherkennung geforscht. Verschiedene Muster- und Template-Matching-Methoden wurden bis Mitte 1980 erforscht, als das Hidden Markov Model (HMM) einen Durchbruch zur Lösung der Spracherkennungsaufgabe ermöglichte. Der HMM-Ansatz schafft ein allgemeines Framework, welches Schwankungen in der Zeit sowie Spektrums-Domäne der Sprache statistisch entkoppelt und modelliert. Ein HMM-basierter Erkenner wird auf eine komplexe Pipeline aufgesetzt, welche aus etlichen statistischen und nicht-statistischen Komponenten, wie bspw. einem Aussprachewörterbuch, HMM-Topologien, Phonem-Cluster-Bäumen, einem akustischen Modell und einem Sprachmodell, besteht. Durch aktuelle Fortschritte bei künstlichen neuronalen Netzen (KNN) für die akustische sowie sprachliche Modellierung dominiert der hybride HMM/KNN-Ansatz in unterschiedlichen ASR-Anwendungen. In den letzten Jahren hat die Einführung komplett neuronaler Ende-zu-Ende Spracherkennungssystems, welche eine neuronale Netzwerkarchitektur verwenden, um die direkt Abbildung eines akustischen Signals zu einer textuellen Transkription zu approximieren, großes Interesse auf sich gezogen. Die Vorteile des Ende-zu-Ende-Ansatzes liegen in der Einfachheit des Trainings eines kompletten Spracherkennungssystems, wobei die komplexe Struktur einer HMM-basierten Pipeline entfällt. Gleichzeitig benötigt die Ende-zu-Ende ASR oft eine wesentlich größere Trainingsdatenmenge und es ist eine größere Herausforderung ein Ende-zu-Ende Modell so anzupassen, dass es auf einer neuen Aufgabe gut abschneidet. Diese Dissertation befasst sich mit der Entwicklung eines hoch-performanten Spracherkennungssystems für ein Online- und Streaming-Szenario. Der Autor erreichte dies durch ein Vorgehen in zwei Schritten. Im ersten Schritt wurden vielfältige Techniken im HMM-KNN- und Ende-zu-Ende-Paradigma angewandt, um ein hoch-performantes System im Batch-Mode zu bauen. Batch-Mode bedeutet, dass die vollständigen Audiodaten beim Start der Verarbeitung zur Verfügung stehen. Im zweiten Schritt wurden effiziente Anpassungen untersucht, die einem hoch-performanten Batch-Mode-System ermöglichen Inferenzen online bzw. fortlaufend durchzuführen. Gleichzeitig wurden neuartige Algorithmen zu Reduktion der wahrgenommenen Latenz, welche das kritischste Problem von online Spracherkennern ist, entwickelt. Erster Schritt. Die vorgestellte Techniken, die auf hochperformante Ergebnisse abzielen, können anhand deren Position in der Spracherkennungs-Pipeline, wie Merkmalsextraktion und Daten-Augmentierung, kategorisiert werden. Bevor Sprachsignale eine digitale Form annehmen, sind sie als Ergebnis der Faltung mehrere Frequenzkomponenten in einem großen Dynamikumfang bekannt. Diese Merkmale können drastisch durch natürliche Faktoren, wie bspw. unterschiedliche Sprecher, Umgebungen order Aufnahmegeräte, beeinflusst werden. Die große Varianz der Sprachsignale verursacht typischerweise die Diskrepanz zwischen Training und Test und kann die Erkennungsleistung drastisch verschlechtern. Diese Diskrepanz gehen wir durch zwei high-level Ansätze, welche auf Neuronalen Netzen basieren, in der Merkmalsextraktion an. Wir zeigten, dass auf tiefe neuronale Netze (DNN) basierte akustische Modelle, die mittels dieser Sprecher-angepasster Merkmale trainiert wurden, in Bezug auf die Wortfehlerrate (WER) relativ, bis zu 19% besser abschneiden, als herkömmliche Merkmalsextraktionen. Im zweiten Ansatz wird ein Long short-term memory (LSTM) Netzwerk, das mittels Connectionist Temporal Classification (CTC) Kriterium auf Phon-Labeln trainiert wurde, als High-Level Merkmals-Transformation verwendet. Die Kombination der aus dem CTC-Netzwerk extrahierten Merkmale und der Bottleneck-Merkmale ergab einen effizienten Merkmalsraum, der ein DNN-basiertes akustisches Modell ein starkes CTC-basierendes Baseline Modell mit deutlichem Vorsprung übertreffen ließ. Darüber hinaus zeigten wir, dass die Verwendung einer Standard Cepstral Mean und Varianz Normalisierung (CMVN) als low-level Merkmalsextraktion in einer potenziellen Diskrepanz von Offline Training und Online Test resultiert und schlugen eine Lineare Diskriminaz Analyse (LDA), die auf linearer Transformation basiert, als Ersatz vor. Daten-Augmentierung wurde in der Spracherkennung verwendet, um zusätzliche Trainingsdaten zu generieren und so die Qualität der Trainingsdaten zu erhöhen. Diese Technik verbessert die Robustheit des Modells und verhindert Overfitting. Wir zeigten, dass Overfitting das kritischste Problem beim Training eines Ende-zu-Ende Sequence-to-sequence (S2S) Modells für die Spracherkennungsaufgabe ist und stellten zwei neuartige on-the-fly Daten-Augmentierungsmethoden als Lösung vor. Die erste Methode (dynamic time stretching) simuliert den Effekt von Geschwindigkeitsänderungen durch eine direkte Manipulation der zeitlichen Folge an Frequenzvektoren durch eine Echtzeit-Interpolationsfunktion. In der zweiten Methode zeigten wir eine effiziente Strategie, um gesprochene Sätze on-the-fly zu sub-samplen und so die Trainingsdatenmenge mit mehrere Varianten eines einzelnen Samples zu vergrößern. Wir zeigten, dass diese Methoden sehr effizient sind, um Overfitting zu vermeiden und die Kombination mit der SpecAugment-Methode aus der Literatur verbesserte die Leistung des vorgestellten S2S-Modells zu einem State-of-the-Art auf dem Benchmark für Telefongespräche. Zweiter Schritt. Wir zeigten, dass die vorgestellten Hoch-leistungs-Batch-Mode ASR Systeme des hybriden (HMM/KNN) und Ende-zu-Ende Paradigmas die Anforderungen in einer online bzw. realen Situation, durch zusätzliche Anpassungen und Inferenz-Techniken, erfüllen. Weder der üblicherweise verwendete Echtzeitfaktor, noch die Commitment-Latenz sind ausreichend, um die vom Benutzer wahrgenommene Latenz aufzuzeigen. Wir stellten eine neuartige und effiziente Methode zur Messung der vom Benutzer wahrgenommenen Latenz in einer Online- und Streaming-Situation vor. Wir zeigten weiter auf, dass ein fortlaufender HMM/KNN Erkenner entweder für den Latenzhöchstwert oder die mittlere Latenz optimiert werden sollte, um das Nutzererlebnis zu verbessern. Um die Latenzmetrik zu optimieren, führten wir einen Mechanismus ein (Hypothese Update), welcher erlaubt hypothetische Transkripte früh zum Benutzer zu schicken und diese später teilweise zu korrigieren. In Experimenten in einer realen Situation in der Vorlesungspräsentations-Domäne konnte gezeigt werden, dass dieses Vorgehen die Wort-basierte Latenz unseres Erkenners stark reduziert, d.h. von 2,10 auf 1,09 Sekunden. Das Sequence-to-sequence (S2S) Attention-basiertes Modell ist für Ende-zu-Ende Spracherkennung zunehmend beliebt geworden. Etliche Vorteile der Architektur und der Optimierung eines S2S-Modells wurde vorgestellt, um State-of-the-Art Ergebnisse auf Standard-Benchmarks zu erreichen. Wie S2S-Modelle mit ihrem Batch-Mode Kapazität aber für eine online Spracherkennung gebraucht werden können, ist dennoch eine offene Forschungsfrage. Wir näherten uns diesem Problem, indem wir die Latenzprobleme, die durch die normale Softmax-Attention Funktion, bidirektionale Encoder und die Inferenz mit Strahlensuche verursacht wurden, analysierten. Wir nahmen uns all dieser Latenzprobleme in einem an, in dem wir einen zusätzlichen Trainings-Loss, um die Unsicherheit der Attention-Funktion auf Frames auf die vorausgeblickt wird, und einen neuartigen Inferenz-Algorithmus, der partielle Hypothesen bestimmt, vorstellen. Unsere Experimente auf dem Datensatz mit Telefongesprächen zeigten, dass unser Stream-Erkenner, mit einer Verzögerung von 1,5~Sekunden für alle Ausgabeelemente, in vollem Umfang die Performanz eines Batch-Mode-Systems derselben Konfiguration erreicht. Nach bestem Wissen ist dies das erste Mal, dass ein S2S-Spracherkennungsmodell in einer online Situation ohne Einbußen in der Genauigkeit genutzt werden kann

KITopen

Wind-induced Shear and Torsion on Low- and Medium-Rise Earthquake Resistant Steel Braced Frame Buildings

Author: Nguyen Thai Son
Publication venue
Publication date: 30/08/2017
Field of study

There are locations in Canada where buildings are equally affected by wind and earthquake loads. In these areas, designers may rise questions about the governing lateral load. It is known that buildings are designed to respond in the elastic range under wind load and in the inelastic range when subjected to earthquake load. Besides, there are other elements that influence the building responses under lateral loading, such as: building configuration, height, selected ductility level, structural irregularity types and geotechnical characteristics. This thesis addresses the effect of wind-induced shear and torsion on 22 low-rise and medium-rise steel buildings located on Site Class C and Site Class B. These buildings were designed as earthquake resistant systems according to the 2015 edition of National Building Code of Canada (NBCC 2015) and Steel Design standard specifications (CSA S16-2014). The study examines the impacts from building configurations by considering different width-to-length ratios and heights on two sets of buildings: i) width-to-length ratio 1:4 and ii) width-to-length ratio 1:2. The 1st set comprises five buildings with heights ranging from 14.8 m (4-storey low-rise building) to 43.6 m (12-storey medium-rise building). The 2nd set comprises only medium-rise buildings with 8, 10, and 12 storeys. In addition, two types of ductility levels were selected for the lateral force resisting systems (LFRS): limited-ductility (LD-CBF) and moderately-ductile concentrically braced frames (MD-CBF). Two types of geotechnical characteristics were considered: Site Class C (firm soil) and Site Class B (rock). All designed buildings are structural regular. The effects from torsion, notional lateral load, and P- effect was also studied. On the process of computing wind load, several ambiguities have been found in the NBCC 2015 wind load provisions. Consequently, recommendations were made to resolve these issues. In addition, these recommendations were implemented in several low-rise and medium-rise buildings before comparing with the results obtained when the ASCE/SEI 7-10 standard and the wind tunnel test were used. It was found that for low-rise buildings, the American standard and Canadian code yielded similar shear but quite different torsional coefficients. On the other hand, for medium-rise buildings, clear agreement was found, for both shear and torsion coefficients. The comparisons between earthquake and wind loadings show that depending on building heights, horizontal dimensions, location and ductility level, the dominant loads are different. In taller, larger and more ductile buildings in Montreal, for direction normal to the larger face, wind loads may exceed the earthquake loads in the lower floor levels. In all other cases, earthquake load controls the design. For Montreal buildings taller than 8 storeys, selecting LD-CBF is recommended for the LFRS in order to balance the earthquake/wind design criteria. Caution should be given to buildings taller than 10 storeys when verifying the building deflection under the dynamic effect of wind load

Concordia University Research Repository

THE REAL-WORLD-SEMANTICS INTERPRETABILITY OF LINGUISTIC RULE BASES AND THE APPROXIMATE REASONING METHOD OF FUZZY SYSTEMS

Author: Anh Nguyen Thu
Son Tran Thai
Publication venue: 'Publishing House for Science and Technology, Vietnam Academy of Science and Technology'
Publication date: 05/04/2019
Field of study

The real-world-semantics interpretability concept of fuzzy systems introduced in [1] is new for the both methodology and application and is necessary to meet the demand of establishing a mathematical basis to construct computational semantics of linguistic words so that a method developed based on handling the computational semantics of linguistic terms to simulate a human method immediately handling words can produce outputs similar to the one produced by the human method. As the real world of each application problem having its own structure which is described by certain linguistic expressions, this requirement can be ensured by imposing constraints on the interpretation assigning computational objects in the appropriate computational structure to the words so that the relationships between the computational semantics in the computational structure is the image of relationships between the real-world objects described by the word-expressions. This study will discuss more clearly the concept of real-world-semantics interpretability and point out that such requirement is a challenge to the study of the interpretability of fuzzy systems, especially for approaches within the fuzzy set framework. A methodological challenge is that it requires both the computational expression representing a given linguistic fuzzy rule base and an approximate reasoning method working on this computation expression must also preserve the real-world semantics of the application problem. Fortunately, the hedge algebra (HA) based approach demonstrates the expectation that the graphical representation of the rule of fuzzy systems and the interpolation reasoning method on them are able to preserve the real-world semantics of the real-world counterpart of the given application problem

Vietnam Academy of Science and Technology: Journals Online

Nonlinear static and transient isogeometric analysis of functionally graded microplates based on the modified strain gradient theory

Author: Nguyen-Xuan H.
Thai Huu-Tai
Thai Son
Vo Thuc
Publication venue: 'Elsevier BV'
Publication date: 15/12/2017
Field of study

The objective of this study is to develop an effective numerical model within the framework of an isogeometric analysis (IGA) to investigate the geometrically nonlinear responses of functionally graded (FG) microplates subjected to static and dynamic loadings. The size effect is captured based on the modified strain gradient theory with three length scale parameters. The third-order shear deformation plate theory is adopted to represent the kinematics of plates, while the geometric nonlinearity is accounted based on the von Kármán assumption. Moreover, the variations of material phrases through the plate thickness follow the rule of mixture. By using Hamilton’s principle, the governing equation of motion is derived and then discretized based on the IGA technique, which tailors the non-uniform rational B-splines (NURBS) basis functions as interpolation functions to fulfil the C2-continuity requirement. The nonlinear equations are solved by the Newmark’s time integration scheme with Newton-Raphson iterative procedure. Various examples are also presented to study the influences of size effect, material variations, boundary conditions and shear deformation on the nonlinear behaviour of FG microplates

Northumbria Research Link

Effect of cerium salt-activated ceria on the UV degradation resistance of waterborne epoxy coatings

Author: Nguyen Anh Son
Nguyen Thuy Duong
Thai Thu Thuy
Publication venue: 'Publishing House for Science and Technology, Vietnam Academy of Science and Technology'
Publication date: 12/05/2020
Field of study

"The author can not apply the abstract because of system's error. Please check it in the WORD version. Thank you

Vietnam Academy of Science and Technology: Journals Online

Multi-stage Large Language Model Correction for Speech Recognition

Author: Nguyen Thai-Son
Pu Jie
Stüker Sebastian
Publication venue
Publication date: 17/10/2023
Field of study

In this paper, we investigate the usage of large language models (LLMs) to improve the performance of competitive speech recognition systems. Different from traditional language models that focus on one single data domain, the rise of LLMs brings us the opportunity to push the limit of state-of-the-art ASR performance, and at the same time to achieve higher robustness and generalize effectively across multiple domains. Motivated by this, we propose a novel multi-stage approach to combine traditional language model re-scoring and LLM prompting. Specifically, the proposed method has two stages: the first stage uses a language model to re-score an N-best list of ASR hypotheses and run a confidence check; The second stage uses prompts to a LLM to perform ASR error correction on less confident results from the first stage. Our experimental results demonstrate the effectiveness of the proposed method by showing a 10% ~ 20% relative improvement in WER over a competitive ASR system -- across multiple test domains.Comment: Submitted to ICASSP 202

arXiv.org e-Print Archive